我們要建構建構自己的BigData, 首先要思考建構的數據從哪裡來? 這些數據, 有沒有規則? 用在哪個平台上?
所以要由大部分使用者角度出發, 才能解決每個人不同的困擾.
首先是平台的問題, windows 7 是目前市占率最高的系統, 因此我們開發平台是設定在windows7上面.
其次, 數據的處理, 分為兩個部分:
第一個部分是標準格式的資料, 可以用資料庫處理的, 我們選擇了MariaDB 10 ,
因為 MariaDB 10主要增加了3項新特色:
1.新增高效複製功能. 2 增加原生NoSQL支援. 3. 內建分片(Sharding)功能.
第二個部分是非標準格式的資料, 簡單的說是NoSQL, 我們選擇了MongoDB.
再來, 在網路上處理抓資料的程式碼, 以C# / Java / Python 都有 , 在Windows 上就用 C# 範例抓資料.
最後, 分析資料的部份, 我們打算以R語言來處理.
這樣, 個人版本的BigData規劃簡單告一段落.